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В статье обсуждается дифонное распознавание с использованием и без использования межфонемной 
обработки, методы ускорения распознавания, способы быстрого создания дифонной базы, модификация 
эталонов дифонов в случае ошибки при распознавании, использование второго минимума при распозна- 
вании слитной речи, распознавание слов по частям, текстовый редактор с автоматически добавляемой 
парадигмой нового слова и голосовым вводом. 
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1 Сравнение распознавания без использования 
и с использованием межфонемной обработки 


Использованию дифонов при распознавании отдельно произносимых слов и 
слитной речи посвящены работы [1], [2]. В работе [1] было отмечено, что ОТ\- 
распознавание слова с эталонами, построенными из эталонов дифонов, возможно как 
для сигнала, в котором удалены стационарные части звуков (межфонемная обра- 
ботка), так и для исходного сигнала. На рис. 1 и 2 в верхнем поле слева представлен 
некоторый словарь для распознавания. В среднем верхнем поле для произнесенного 
слова «ЗАПИСАТЬ» приведен список кандидатов на распознавание с указанием 
ОТУ\У-расстояний. 


Эталоны слов 


<- Добавить 


Г автоматически 
Г центр 


вин\о 
зак\онный 
записать 
насел\ение 
сенок\ос 


на на на 


сенок\ос 


Удалить 
Копировать эт. 


Рисунок 1 — Результат распознавания без межфонемной обработки сигнала 


Эталоны слов 
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вин\о 
зак\онный 
записать 
насел\ение 
сенок\ос 


записать (11.31) <- Добавить 
зак\онный (21.72) 

насел\ение (23.29) Г автоматически 
вин\о (25.15) Г центр 


сенок\ос (26,32) 
<-Вставить 
сенок\ос 


Удалить 
Копировать эт. 


Гань 


Рисунок 2 — Результат распознавания сигнала после межфонемной обработки 


ны на 


Рисунок 1 соответствует распознаванию исходного сигнала, а рис. 2 — распо- 
знаванию сигнала после межфонемной обработки. В первом случае отношение двух 
первых расстояний в списке есть 

16,83 


24,91 


= 0,67, 


а во втором случае оно равно 
11.31 


и Ви: 


= 0,52. 
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Аналогичный результат прослеживается во всех других наших экспериментах: 
распознаваемое слово лучше отделяется от следующего за ним по ОТ\-расстоянию 
после межфонемной обработки, нежели без нее. Вывод: при дифонном распознавании 
записанный речевой сигнал целесообразно подвергать предварительной межфонем- 
ной обработке. 


2 Проблемы ускорения и оптимизации распознавания 


При распознавании больших и сверхбольших словарей чрезвычайно актуаль- 
ной становится проблема скорости работы системы. Ниже предлагается три способа 
ускорения распознавания. 

1. Использование классификации по длине слова. 

Поскольку наша система сразу после записи сегментирует слово, мы получаем 
представление о количестве входящих в него дифонов (длина сказанного слова). С дру- 
гой стороны, при создании дерева транскрипций, мы получаем точную информацию 
о длине каждого слова словаря. Очевидно, нет смысла искать результат распознавания 
среди слов, которые сильно отличаются от сказанного по длине. Учитывая возможные 
ошибки сегментации, мы ищем результат распознавания среди слов, которые отли- 
чаются от сказанного по количеству дифонов не более чем на два. А именно, про- 
рабатывая очередную ветвь дерева эталонов, мы начинаем с подсчета количества 
входящих в нее дифонов, и переходим к вычислению расстояния до сказанного только в 
том случае, когда упомянутое количество отличается от длины сказанного не более 
чем на 2. 

2. Использование УЕ-транскрипции. 

Напомним, что при сегментации наша система осуществляет также широкую 
фонетическую классификацию составляющих звуков. С целью увеличения надежности 
ограничимся делением этих звуков на звонкие (идентификатор У) и глухие (в наших 
обозначениях идентификатор Е). Таким образом, мы получаем обобщенную УЕ-транс- 
крипцию сказанного. Ясно, что результат распознавания следует искать лишь среди 
слов словаря с такой же УЕ-транскрипцией. Чтобы после такого сокращения мно- 
жества кандидатов на распознавание не создавать дерево заново, мы с самого начала 
записываем в конечном узле каждого слова его УЕ-транскрипцию. После этого 
процесс распознавания строится аналогично тому, как это делается при классифи- 
кации по длине: вычисление ОТ\-расстояния осуществляется только для слов с 
нужной УЕ-транскрипцией. 

3. Классификация по первому звуку слова. 

Указанная классификация является лингвистически наиболее естественной. На се- 
годняшний день мы можем надежно классифицировать первый звук слова, если он 
является гласным, фрикативным или глухим взрывным. Звонкие согласные мы пока 
предпочитаем классифицировать, не распознавая их между собой. Таким образом, 
после сегментации мы используем первые полудифоны 40, и0, ...,с0, м0, що, ка0, 
Кио,.... С0. Символ СО соответствует начальному участку произвольного звонкого 
согласного. Эти полудифоны мы распознаем заранее и при дальнейшей работе с де- 
ревом ограничиваемся ветвями, которые начинаются с распознанного полудифона. 


3 Быстрое создание дифонной базы 


Наглядная программа для создания эталонов дифонов может быть описана сле- 
дующим образом. Записанный сигнал сразу автоматически сегментируется (рис. 3). 
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Рисунок 3-— Визуализация сигнала для слова «ласка» с сегментацией 


При этом в окне программы создаётся список имен межфонемных переходов в тер- 
минах широкой фонетической классификации (У, С, Е, Р). Выделение элемента этого 
списка сопровождается выделением в сигнале соответствующего дифона (рис. 4, 5). 


Эталоны слов 


Слово м <- Добавить со 
с 


Г автоматически 
Г центр ЕР 


Р\! 
<-Вставить 2 


Удалить 
Копировать эт. 


ВЕРЕ 


Рисунок 4 — Фрагмент программы: в правом верхнем поле 
список межфонемных переходов для слова «ласка» 
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Рисунок 5 — Фрагмент программы: показан результат 
автоматического выделения дифона при выделении элемента списка на рис. 4 


При нажатии кнопки «вставить» создается эталон дифона, включаемый в базу 
эталонов. 

На самом деле все указанные операции автоматизируются, что позволяет по- 
лучить программу быстрого создания базы дифонов. Ниже приведен перечень звуко- 
сочетаний, произнесение которых обеспечивает создание дифонов для распознавания 
произвольных слов со строгим чередованием гласных и согласных звуков: 
абавагада, ажазакала, аманапара, басатафахацаша, аб\е, ав\е, аг\е, ад\е, а\е, аз\е, ак\е, 
ал\е, ам\е, ан\е, ап\е, ар\е, ас\е, ат\е, аф\е, ах\е, ач\е, аще, \еб\ев\ег\ед\е, \ез\ек\ел\ем\е, 
\ен\еп\ер\ес\ет\е, б\еф\ех\еч\ещ\е, \еба, \ева, \ега, \еда, \е\е, \ежа, \еза, \ека, \ела, \ема, 
\ена, \епа, \ера, \еса, \ета, \ефа, \еха, \еца, \еша, &бёвёгёдё, ёзёкёлёмё, внёпёрёсётё, 
вёфёхёчёщьё, &6\о, ёв\о, ёг\о, &д\о, 66, &ж\о, &з\о, 6к\о, ёл\о, &м\о, &н\о, &п\о, ёр\о, &с\о, 
ёт\о, &ф\о, &х\о, &ц\о, &ш\о, ибивигиди, изикилими, инипирисити, гифихичищи, ибу, 
иву, игу, иду, и\е, ижу, изу, ику, илу, иму, ину, ипу, иру, ису, иту, ифу, иху, ицу, ишу, 
\об\ов\ог\од\о, \ож\оз\ок\ол\о, \ом\он\оп\ор\о, в\ос\от\оф\ох\оц\ош\о, \обё, \овё, \огё, 
\одё, озё, \оё, \окё, \олё, \омё, \онё, \опё, \орё, \осё, \отё, \офё, \охё, \очё, ощё, 


убувугуду, ужузукулу, умунупуру, гусутуфухуцушу, уби, уви, уги, уди, у\е, узи, уки, 
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ули, уми, уни, упи, ури, уси, ути, уфи, ухи, учи, ущи, ыбывыгыды, ыжызыкылы, 
ымыныпыры, дысытыфыхыцышы, ыбю, ывю, ыгю, ыдю, ызю, ы\ю, ыкю, ылю, ымю, 
ыню, ыпю, ырю, ысю, ытю, ыфю, ыхю, ычю, ыщю, эбэвэгэдэ, эжэзэкэлэ, эмэнэпэрэ, 
жэсэтэфэхэцэшэ, эб\я, эв\я, эг\я, эд\я, эз\я, э\я, эк\я, эл\я, эм\я, эн\я, эп\я, эр\я, эс\я, 
эт\я, эф\я, эх\я, эч\я, эт\я, юбювюгюдю, юзюкюлюмю, юнюпюрюсютю, дюфюхючющю, 
юю, юбы, ювы, югы, юды, южы, юзы, юкы, юлы, юмы, юны, юпы, юры, юсы, юты, 
юфы, юхы, юцы, юшы, \яб\яв\яг\яд\я, \яз\як\ял\ям\я, \ян\яп\яр\яс\ят\я, з\яф\ях\яч\ящ\я, 
\ябэ, \явэ, \ягэ, \ядэ, \я\е, \яжэ, \язэ, \якэ, \ялэ, \ямэ, \янэ, \япэ, \ярэ, \ясэ, \ятэ, \яфэ, \яхэ, 
\яцэ, \яшэ, за, лал, мам, нан, рар, сас, цац, шаш, л\яль, м\ямь, н\янь, р\ярь, с\ясь, ч\яч, 
щ\ящ, как, пап, тат, к\о, ку, кы, кэ, п\о, пу, пы, пэ, т\о, ту, ты, тэ, кякь, пяпь, тять, к&, 
кю, ки, к\е, пё, пю, пи, п\е, тё, тю, ти, т\е, фаф, хах, цац, ф\яфь, х\яхь, ч\яч, ой. 
На рис. 6 представлено окно программы обучения. 


` Обучение эталонов 


Произнесите в микрофон: 


ажазакала 


Ожидание голоса... 


\/ (5376-8704) 
С(8704-12288) 
\\ (12288-15872) 
С(15872-19456) 
\/ (19456-22272) 
С(22272-24448) 
{24448-26624\ 


Рисунок 6 — Окно программы обучения: 


После нажатия кнопки «Начать обучение — Стоп» программа предлагает очередное 
звукосочетание. Когда слово произнесено, она автоматически выделяет все входящие 
в него дифоны, создает их эталоны и предлагает следующее звукосочетание. Звуко- 
сочетания подобраны так, чтобы обеспечивать надежную сегментацию и выделение 
дифонов. В случае, когда все же полученная сегментация не соответствует ожидаемому 
количеству сегментов, программа просит пользователя повторить произнесение. Вся 
процедура обучения по указанному списку занимает 10 -— 15 минут. 

Аналогичным образом создается список обучающих звукосочетаний полной базы 
дифонов для распознавания произвольных слов и слитной речи. В этом случае 
обучение занимает около часа. 


4 Модификация эталонов дифонов 
в случае ошибки при распознавании 


Отметим, что при дифонном ОТ\-распознавании ошибки в сегментации в по- 
давляющем большинстве случаев не приводят к ошибкам в распознавании. В наших 
распознавателях реализована также процедура доучивания: в случае ошибки пользо- 
ватель указывает мышкой в списке или вводит с клавиатуры правильное слово; про- 
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грамма, сегментируя сигнал, создает эталоны прозвучавших дифонов и с их помощью 
модифицирует эталоны базы путем усреднения. Здесь ошибки в сегментации ста- 
новятся важными, и программа, зная слово, в большинстве случаев исправляет их: 

— лишние удвоения сегментов С, Р, Е заменяются одним сегментом; 

— не разделенные при сегментации С, Р, Е — участки разделяются на два сегмента 
(метка ставится посредине); 

— последовательность сегментов \/СУ/ заменяется на \/У, если в транскрипции 
слова на этом месте присутствуют \/\\ (метка ставится посредине отрезка \\); 

— удаляются лишние метки в сочетаниях ЕР и РЕ, если в транскрипции на этом 
месте один сегмент Е или Р; 

— добавляются метки в сегменты Ё и Р, если в транскрипции на этом месте 
сочетание ЕР или РЕ (соответствующая метка ставится посредине); 

— добавляются метки в сегмент У, если в транскрипции на этом месте \У\ 
(метка ставится посредине); 

— добавляются пропущенные метки У и С перед сегментами Е и Р или после 
сегментов Е иР. 


> Использование второго минимума 
при распознавании слитной речи 


В работе [2] сформулирован принцип минимума ОТ\У-расстояния для определе- 
ния первого слова слитно произносимой фразы при определенном ограничении на состав 
распознаваемого словаря. А именно, в словаре не должно быть таких пар слов, что 
транскрипция одного из них получается из транскрипции другого приписыванием в 
конце дополнительных транскрипционных символов. В противном случае, при произне- 
сении более длинного слова такой пары, ОТУ/-расстояние до слова с более короткой 
транскрипцией может оказаться меньше. 

Для того чтобы программа правильно работала при наличии слов с такими фонети- 
ческими вложениями, предлагается использовать «МЕТОД ВТОРОГО МИНИМУМА». 
Пусть распознается слитно произносимая фраза из двух слов. Найдем минимум-ги- 
потезу для первого слова (гипотеза 1) и, распознав оставшуюся часть сигнала, получим 
пару слов. Для этой пары слов построим эталон, как для слитно произносимой фразы, и 
вычислим до него ОТ\-расстояние (/ исходного сигнала. Рассмотрим все гипотезы, 


следующие за гипотезой 1. Среди них выберем ту, которой соответствует минималь- 
ное ОТ\У-расстояние (второй минимум) и, действуя с ней далее так же, как с гипо- 
тезой 1, найдем расстояние 4,. Мы получили два варианта распознавания исходной 


фразы. Из них следует выбрать тот, для которого величина (1 (1=1,2) меньше. 


Если фраза состоит из К слов, то описанный алгоритм обобщается следующим 
образом. Находим для первого слова два варианта, используя первый и второй мини- 
мумы. В первом случае от конца первого слова аналогичным образом ищем второе 
слово, что в свою очередь дает два варианта. То же делаем во втором случае (еще 
два варианта). Продолжая действовать таким же образом, найдем 2” наборов слов. 
Для каждого из этих наборов построим эталон, как для слитно произнесенной фразы, 
и найдем расстояние исходного сигнала до каждого из этих эталонов. Результатом 
распознавания объявляется тот набор слов, расстояние до которого минимально. 
Количество вычислений при увеличении К растет не слишком сильно, так как многие 
из упомянутых наборов слов совпадают между собой и вычисления для них, как для 
слитно произносимых фраз повторять не надо. 
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6 Распознавание слов по частям 


Предлагаемую технику распознавания слитной речи можно применить также 
для распознавания словоформ одного и того же слова, выделяя в них общую часть 
(квазиоснова) и изменяющиеся части (квазифлексии). Рассматривая множество слово- 
форм различных слов, объединяем квазиосновы в один словарь, а квазифлексии - в 
другой. Произнеся словоформу, находим квазиоснову по принципу минимума ОТ\- 
расстояния, при этом выделяется соответствующая часть речевого сигнала. Оставшуюся 
часть распознаём, используя словарь квазифлексий. Квазифлексии, очевидно, являются 
общими для большой группы слов. Если у нас есть т квазиоснов и и квазифлексий, 
то их комбинации образуют т х и словоформ и, распознавая словоформы как целое, 
мы имели бы словарь для распознавания из т Хх и объектов. Распознавая же квази- 
основы и квазифлексии отдельно, мы распознаем т + и объектов. Правда, работая с 
квазиосновой, согласно алгоритму определения первого слова в слитной речи, при- 
ходится совершать не одно, а несколько распознаваний (от начала до первой метки, 
от начала до второй метки и так далее). Однако в рассматриваемом случае можно 
начинать с распознавания от начала до предполагаемой конечной метки основы, ко- 
торая отвечает началу самой длинной квазифлексии. В результате процесс распозна- 
вания квазиосновы сильно сокращается. 


7 О текстовом редакторе с автоматически добавляемой 
парадигмой нового слова и голосовым вводом 


Результаты, полученные в [1], позволяют заняться разработкой своеобразного 
текстового редактора с голосовым вводом. Предполагается первоначальный словар- 
ный запас в несколько десятков тысяч русских словоформ, отвечающих словам из «Нового 
частотного словаря русской лексики», составленного С.А. Шаровым и О.Н. Ляшев- 
ской на основе Национального корпуса русского языка [3]. При этом используется 
тысяча наиболее часто употребляемых глаголов, тысяча наиболее часто употребляемых 
существительных и так далее. Словарь в несколько десятков тысяч получается при 
включении всех словоформ упомянутых слов. Программа должна давать пользова- 
телю возможность с самого начала набирать произвольный текст. Все упомянутые 
словоформы пользователь имеет возможность вводить голосом. Если же слово не 
входит в первоначальный словарь, оно вводится с клавиатуры. И при голосовом вводе и 
при вводе с клавиатуры результат первоначально содержится в отдельном поле, что 
дает пользователю возможность контролировать и при необходимости исправлять 
его. По нажатию пробела результат передается в текст. Для того чтобы исключить 
ошибки при ручном наборе проверяется наличие введенного слова в обширном сло- 
варе русских словоформ Сйескег, используемом для такой проверки. Если слово все- 
таки не попало в текст, но пользователь убедился в его правильном написании, он 
нажимает «Ещег», после чего слово вставляется в текст и вставляется в Сйескег вместе с 
его полной парадигмой, то есть набором всех его словоформ. 

Если слово отсутствовало в первоначальном словаре для распознавания и на- 
брано с клавиатуры, то в момент нажатия пробела в словарь для распознавания вводится 
его полная парадигма и создается новое дерево эталонов, так что в дальнейшем любую из 
этих словоформ можно вводить голосом. 

Наконец, если результат голосового ввода оказался ошибочным и пользователь 
заменяет его с клавиатуры нужным словом, программа «знает», какие дифоны участ- 
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вуют в нужном эталоне и автоматически модифицирует их путем усреднения дифонов, 
существовавших до этого в базе, и дифонов прозвучавшего слова, добиваясь тем 
самым правильного распознавания. 

Все текстовые словари задаются в виде деревьев, что обеспечивает быстрый поиск. 
Работа с парадигмами слов основана на использовании большого декларативного морфо- 
анализатора, разработанного в отделе распознавания речевых образов Института проблем 
искусственного интеллекта НАН и МОН Украины [4]. 

Таким образом, описываемый редактор должен 

1) позволять с самого начала набирать нужные тексты; 

2) автоматически пополнять словарь для распознавания парадигмами новых слов; 

3) совершенствовать по ходу дела дифонную базу, улучшая качество распозна- 
вателя. 

Все это становится возможным благодаря процедуре автоматического создания 
из эталонов дифонов эталонов новых слов, появляющихся в процессе работы только 
в текстовом виде. 
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А.Т. Мсепко, Г.Ли. 5пеероъ, @.Т. Рогойта 
Оп Зоте Оиезпоп5 орОрйопе Кесови!оп 


апа Кесоэтйоп о{Сопйпиои$ 5реесй 

ТБе агёсе Пез ш соигзе оЁ аиог$ арргоасВ 1ю зреесВ тесоотйоп Бу 4упапис ргоотат- 
шие тефо4 ул райегаз \МмсВ ацютайсаПу стеае Нот ЧрКопе равеги$ ито фтапзсирйоп. 
Е соташ$ зоте 14еаз УмсВ аге ппрокапЕ Гог геай7аноп оЁ 1$ арргоасВ т 1агое уосаб\апез 
тесоот оп ап сопйпиез$ зрееср: #25 сгеайоп Ф@рвопе-Базе \’ау, гесосп@оп ассеегайоп 
те#о4$, то саноп ФрБопе-райегл$ ш Ше сазе оЁ тесосшНоп еггог, сопйпиез зреесН ге- 
соопюоп ул уосабагу УЛмеь Вауе рБопейс шса$1юопз, тесооп@оп оЁ уога-Юптз ПКе 
сопйпиоиз зреесВ зеотет ул ет ап епаше с1азсаНоп. Те ]азё зесНоп сощатз 
дезсирйоп оЁ згасвиге ог ипроцап аррИсайоп: {ех{ еше ргоотат ул ацютайс ад4те оЁ 
пе\ у’огА рагаФет ап ус1се шрийпо. 
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